发展AI网络面临的四个关键技术

作者：陈炳欣 08-13 15:00

来源：爱集微 #AI网络# #RDMA# #英伟达# #网络计算# #数字孪生#

1.8w

AI大模型时代，大模型参数量和训练集规模大幅增加，仅靠GPU芯片单体算力的提升已经不能满足需求，业界目光正从单体算力转向了系统架构层面的创新。其中，底层核心技术——网络，成为关键突破口，全球各大公司纷纷进行相关产品技术的研发。AI网络技术的角逐正在展开。在近日举办的“2024开放计算中国峰会”上，英伟达网络高级总监宋庆春介绍了AI网络的四大关键技术：端到端的RDMA流量动态路由、AI云上AI业务的性能隔离、网络计算和网络数字孪生。

为了帮助客户在云环境中构建生成式AI或AI工作负载，提升网络性能，英伟达推出了新的网络平台，即加速以太网平台NVIDIA Spectrum-X。Spectrum-X平台并非是一个单产品的形态，而是涉及到Spectrum-4以太网交换机、BlueField-3 DPU、LinkX 线缆及模块和相关软件，能够为生成式AI在云端提供规模化的能力。

Spectrum-X的创新点有很多，动态路由就是其中之一。当前国内数据中心中，通用算力仍占算力资源的绝大多数。但是随着应用场景的变化，生成式AI云将成为数据中心发展的新趋势。生成式AI云需要有很强的算力和云的灵活性。为了解决问题，英伟达推出面向AI的以太网络，针对AI业务进行端到端的优化。端到端的RDMA流量动态路由可以让网络传输效率相比传统的以太网络提升1.6倍，实现端网协同，提升网络拥塞问题。RDMA技术可以通过网络把资料直接传入计算机的存储区，将数据从一个系统快速移动到远程系统存储器中，而不对操作系统造成任何影响，这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和上下文切换的开销，因而能解放内存带宽和CPU周期用于改进应用系统性能。

性能隔离技术也很重要。AI云上往往出现多个租户同时运行应用程序的情况，而且每个租户又有可能运行多个任务。如何让多个任务相互隔离，且不仅任务之间相互隔离，运行任务的时候性能也相互隔离，每个任务都能实现和运行单一任务一样的性能？这就需要用到性能隔离技术。该技术基于先进的拥塞控制技术，解决了由于一个AI应用的突发式的Incast通信造成的网络拥塞影响其它应用性能的问题，避免了牺牲流在云上的出现。这个技术在InfiniBand上多年以前就实现了，英伟达把性能隔离技术移植到Spectrum-X平台，实现了以太网云上的业务性能隔离。

网络计算则是指通过计算机网络进行计算的方式，它将计算任务分配给多个网络节点，并协同完成计算任务。网络计算的特点则主要体现在其分布式和协同性。在数据存储方面，网络计算将数据分散存储在多个节点上，这就使得数据更加安全可靠，且能够更好地应对并发访问。在传输技术方面，网络计算采用高速数据传输技术，使得大规模数据的处理和传输变得更加高效。生成式AI云往往面临资源利用率问题、长尾问题、多任务问题，网络计算可以有效解决。

网络数字孪生是物理网络的虚拟表述，基于数据、模型和接口对物理网络进行分析、诊断、仿真和控制，从而实现与物理网络之间的实时交互映射。借助数字孪生网络平台，运营商可以很好地模拟、选择、优化解决方案，最终将它们部署到实际网络中，这将降低对实际网络的影响，减少一定的安全风险。同时，数字孪生网络结合大数据处理和建模技术可实现对现状的评估、对过去的诊断和对未来的预测，模拟各种可能性，提供更全面的决策分析，有助于网络实现预测性运维。现在的AI云规模通常都很大，投入也非常大。如果直接构建一个物理的系统，在物理系统上做Debug的成本非常高。先构建AI数据中心的数字孪生虚拟数据中心，预先进行配置、调试、优化、测试，可以有效降低成本。